logo
Berita

Peneliti Menyoroti Kerentanan AI Gemini Google terhadap Ancaman LLM

Large Language Model (LLM) Gemini milik Google rentan terhadap ancaman keamanan yang dapat menyebabkannya membocorkan perintah sistem, menghasilkan konten berbahaya, dan melakukan indirect injection attacks.

Share on:

  • Mar 13, 2024
  • 3 min read
  • 266
  • 28 Views

Temuan ini berasal dari HiddenLayer, yang mengatakan bahwa masalah tersebut mempengaruhi konsumen yang menggunakan Gemini Advanced dengan Google Workspace serta perusahaan yang menggunakan API LLM.

Kerentanan pertama melibatkan melewati pagar keamanan untuk bocornya sistem prompt (atau pesan sistem), yang dirancang untuk mengatur instruksi secara menyeluruh dalam percakapan kepada LLM untuk membantu menghasilkan respons yang lebih berguna, dengan meminta model untuk mengeluarkan "instruksi dasar" dalam blok markdown.

"Sebuah pesan sistem dapat digunakan untuk memberi tahu LLM tentang konteks," catat Microsoft dalam dokumentasinya tentang rekayasa prompt LLM.

"Konteks tersebut mungkin adalah jenis percakapan yang sedang diikutinya, atau fungsi yang seharusnya dilakukannya. Ini membantu LLM menghasilkan respons yang lebih tepat."

Ini dimungkinkan karena model rentan terhadap apa yang disebut serangan sinonim untuk menghindari pertahanan keamanan dan pembatasan konten.

Kelas kedua kerentanan terkait dengan menggunakan teknik "crafty jailbreaking" untuk membuat model Gemini menghasilkan informasi yang salah seputar topik seperti pemilihan serta menghasilkan informasi yang mungkin ilegal dan berbahaya (misalnya, menghubungkan kabel mobil secara paksa) menggunakan prompt yang meminta model untuk masuk ke dalam keadaan fiktif.

Juga diidentifikasi oleh HiddenLayer adalah kelemahan ketiga yang dapat menyebabkan LLM bocor informasi dalam prompt sistem dengan melewati token yang tidak lazim secara berulang-ulang sebagai input.

"Sebagian besar LLM dilatih untuk merespons pertanyaan dengan perbatasan yang jelas antara masukan pengguna dan prompt sistem," kata peneliti keamanan Kenneth Yeung dalam laporan Selasa.

"Dengan membuat baris token yang tidak masuk akal, kita dapat menipu LLM untuk percaya bahwa sudah saatnya bagi mereka untuk merespons dan menyebabkannya mengeluarkan pesan konfirmasi, biasanya termasuk informasi dalam prompt."

Uji lain melibatkan menggunakan Gemini Advanced dan dokumen Google yang dirancang khusus, dengan yang terakhir terhubung ke LLM melalui ekstensi Google Workspace.

Instruksi dalam dokumen tersebut dapat dirancang untuk mengesampingkan instruksi model dan melakukan serangkaian tindakan berbahaya yang memungkinkan penyerang memiliki kendali penuh atas interaksi korban dengan model.

Pengungkapan ini datang ketika sekelompok akademisi dari Google DeepMind, ETH Zurich, University of Washington, OpenAI, dan Universitas McGill mengungkapkan serangan pencurian model yang baru yang memungkinkan untuk mengekstrak "informasi yang tepat, tidak trivial dari model bahasa produksi kotak hitam seperti ChatGPT dari OpenAI atau PaLM-2 dari Google."

Dengan demikian, perlu dicatat bahwa kerentanan-kerentanan ini tidak baru dan hadir di LLM lain di seluruh industri. Temuan ini, jika ada, menekankan perlunya pengujian model untuk serangan prompt, ekstraksi data pelatihan, manipulasi model, contoh-cara lawan, pencemaran dan pengungkapan data.

"Untuk membantu melindungi pengguna kami dari kerentanan, kami secara konsisten menjalankan latihan red-teaming dan melatih model kami untuk mempertahankan diri terhadap perilaku adversarial seperti injeksi prompt, jailbreaking, dan serangan yang lebih kompleks," kata juru bicara Google kepada The Hacker News. "Kami juga telah membangun perlindungan untuk mencegah respons yang merugikan atau menyesatkan, yang terus kami tingkatkan."

Perusahaan tersebut juga mengatakan bahwa mereka membatasi respons terhadap pertanyaan berbasis pemilihan dengan berhati-hati. Kebijakan ini diharapkan diberlakukan terhadap prompt mengenai kandidat, partai politik, hasil pemilihan, informasi pemilihan, dan pejabat terkenal.


avatar

Arrayyan Sadendra Archsanandra

archsanandra@gmail.com

seorang ilmuwan komputer yang berasal dari Denmark, Ia memegang College of Engineering Chair di Fakultas Ilmu Komputer di Texas A & M University dan juga merupakan seorang profesor Riset Distinguished. Stroustrup menciptakan dan mengembangkan banyak bahasa pemrograman C++, untuk karyanya ini Ia diundang di Universitas Columbia dan bekerja di Morgan Stanley